0%

Big Data

102030761.png

未来将不是信息技术的时代,而是数据技术的时代——马云

张首晟:“少数派”的数据更有价值

3月25日,在2018中国(深圳)IT领袖峰会上,美国斯坦福大学教授、物理学家张首晟发表演讲,分享了他对人工智能的最新看法。

很多人可能听说过图灵测试。图灵测试指的是,人跟机器进行对话,但是我们不知道和人对话的到底是人还是机器。在整个对话的过程中,如果人感觉不出来对面是机器还是人,就意味着机器人已经达到了人的水平。张首晟并不赞同这种判断依据。他说:“人的很多情感并不是理性的情感,要让一个理性的机器学一个非理性的人的大脑,可能并不是那么容易,比如你可能故意激怒机器人,说不定它也不怎么会理你。”

张首晟表示,人最伟大的一点就是可以做科学的发现,所以他提出,判断机器人真正超越人的智力的最好的依据,就是机器人能够做科学的发现,能更好地知道科学发现。当那一天到来的时候,机器就超过人了。

此外,张首晟还谈到了区块链和数据的共生关系。他认为,人工智能最缺的是数据,而今天数据是处在完全中心垄断的状态,不能帮助机器合理地学习。

张首晟说:“当今,个人会产生出很多的数据,个人的基因数据、医疗数据、教育数据、行为数据等,但是这些数据大部分都掌握在中心机构里面,没有达到真正的去中心化。但是有了区块链,能够产生一个数据市场。”所以,张首晟觉得理想的世界,是未来每个人都掌握自己所有的数据,这是完全去中心化的储存,这样黑客也不可能黑每个人的数据,然后用一些加密的算法在区块链上真正做到既保护个人隐私,又能够做出良好的计算。这种去中心化的数据市场,也能让社会变得更加公平。

最后,张首晟表示,机器学习最需要的是那些“少数派”拥有的数据。如果今天机器学习的精准率达到90%了,要使90%达到99%,它需要的不是已经学过的数据,而是跟以前最不一样的数据。所以,“少数派”拥有的数据对机器学习最有价值。

商业:滴滴的壁垒是什么

过去几周最热门的商业新闻当属美团和滴滴开战。

美团打车在3月21日进入上海市场,然后号称只用了十天,就拿下了30%的市场份额。作为还击,一直奉行专注策略的滴滴,也决定上线自己的外卖业务。

程维和王兴都是科技公司小巨头中的佼佼者。但是你会发现当他们面对竞争时,采用的还是最常见的报复策略:如果你胆敢进入我的领域,那么我也要重兵进入你的领域,迫使你付出更大的代价,把你原本打算盈利的业务逼到遥遥无期。

当然,市场上有一个新的玩家进来,总是好事。即使是对滴滴而言,一个真正强有力的对手,也可以让它摆脱一直困扰它的关于垄断的指责。只不过,因为现在竞争的架势,仍然是一上来就花钱补贴用户和补贴乘客,所以,滴滴的大规模盈利计划,必然也要推迟。

不过,我想谈的不是这些,而是:滴滴的壁垒究竟是什么?为什么不断有公司要进入它的领域?

其实前两年优步流年不利的时候,关于优步的壁垒的讨论已经很多。这些讨论中的很多,都适用于对滴滴的讨论。

比如,优步和滴滴提供的,更像是一种本地化服务,因此,它们不具备跨地区的网络效应。也就是说,一家本地公司,是完全有能力在一个地区市场,挑战优步和滴滴这样的巨头。因为单个城市,比如北京的司机和乘客,很难对另一个城市,比如上海有什么帮助。这就跟像微信、Facebook这样的公司差别很大。

再比如,优步和滴滴提供的,是一种标准化的无差异的服务,也就是从一个地方移动到另一个地方。用投资大佬彼得·蒂尔的话说:在一个城市里,有五百种房子的公司,总是能战胜只有五十种房子的公司,因为用户需要这种不同;但是,一家有五百辆车的公司,就会面临只有五十辆车的公司的竞争,因为所有的车都一样。

这两方面它们都不像另一家总是被拿出来做对比的公司爱彼迎(Airbnb)。爱彼迎虽然早期的增长速度不如优步,但是却具备了跨地区的网络效应,提供的也是高度差异化的产品。

切换到滴滴身上,滴滴的壁垒究竟是什么?这家公司真的有那么不堪一击吗?答案显然不是,不然这家公司也走不到今天,成为全球估值最高的创业公司。

滴滴拥有一些显而易见的壁垒。

首先是资本。无论你怎么想,拥有很多钱,在任何竞争时刻都是一个优势。根据公开的报道,滴滴手中至少持有140亿美元的现金。而且,它的融资通道仍然畅通。滴滴不久前在上海证券交易所发行100亿资产支持证券即是一个例子。手中握有足够多的钱,本身就是一个重要的资本。这证明你有足够的子弹来打仗。

其次是牌照。这是滴滴作为市场先行者享有的优势。包括滴滴在内的公司,开始做网约车业务时,这一领域仍然还是一个监管的模糊地带。我曾经听一位网约车领域的创业者提到过,当时监管的态度是:不管就是最大的支持。但现在显然不是这样了。美团打车每进入一个城市,都需要去跟当地的监管部门申请牌照。

美团的一个高管说,每个城市的政府总体上对美团打车还是持欢迎态度。但是在具体的推进过程中,还是需要足够的时间和沟通。

除了这两点之外,滴滴认为自己过去一直在提倡的“安全、体验、效率”可以视为他们构建的壁垒。

把安全、体验、效率换个角度看,就是品牌和技术。

在品牌端,从目前媒体上,乘客和司机的反应来看,显然滴滴的品牌并没有构成壁垒。在同时缺乏网络效应的前提下,乘客和司机很容易因为竞争对手的补贴而迅速转换到另一个打车平台。这也是为什么美团打车能够在上海迅速拿走三成市场份额的原因。

当然,在面对城市政府、汽车制造商这些大的合作伙伴时,滴滴应该会有一些品牌上的优势。滴滴已经在跟一些城市政府合作,帮助这些城市优化当地的交通;包括滴滴同汽车制造商合作,希望制造专门为共享出行量身定制的车,以及滴滴跟合作伙伴一起铺设充电桩网络等。这些合作都是在一家公司的体量已经足够大的情况下,更有优势完成的。

另外一个因素就是技术。在去年年底,李翔知识内参采访滴滴总裁柳青时,柳青曾自问:“到底我们的竞争壁垒在哪里?如果老是有另外一个人能够杀进来,你的竞争壁垒到底是什么?”

她给出的回答是:最核心的壁垒一定是大家都在谈的“大数据和人工智能”。

比如滴滴会把北京画成一个一个的六边形小格子。然后积累这些小格子里的出行数据,下雨天、晴天、高峰期、平峰期、工作日、周末,以及这些人出来之后去哪里。然后根据这些数据,滴滴依靠算法来做预判,每一个地方大概有多少人有出行需求。按照柳青的说法,滴滴的技术已经可以做到,提前15分钟预判,并且达到85%~90%的准确率。

除此之外,还有拼车的算法。系统必须能够告诉司机,是不是有人要上车、在哪里上车,这会决定司机的路线选择。

滴滴在过去的两年时间内,投入了大量的资源在技术上,包括钱,包括在硅谷设立研发中心。

柳青说:“如果今天还有一家竞争对手进来,能提供同样的服务,而且是长期的,不是短期地给一些补贴带来的这些体验差异的话,我们很认。如果不是这样的话,我们还是自信的。”

我也用技术是否能成为壁垒来问美团的高管。对方的回答是:它的确是壁垒,但是这些壁垒对于大的互联网公司而言,并不存在。大互联网公司本身一直都在积累技术。这也是为什么之前包括神州、曹操等网约车公司的声势,都没有美团打车这么大的原因之一。也是网约车现在都是大玩家入场的原因之一。

总之,现在到了考验滴滴构建的竞争壁垒的时刻。除了钱和牌照,滴滴需要证明,在合并了优步中国之后,它并没有像很多批评者指责的那样,躺下来享受垄断的红利。而是,真的通过在技术上的投入和管理上的优化,建立起了自己的竞争优势。

作者:李翔
来源:得到

AI时代的数据之争与公共领域界定

田小军:数据是AI时代的新石油,谁掌控了数据,谁就掌控了竞争格局,其重要性不言而喻。

更新于2017年12月18日 07:15 田小军 为FT中文网撰稿

“兵无常势,水无常形”,今年11月4日,中国《反不正当竞争法》历时24年后首次修订,专设“互联网专条”用以规制互联网行业竞争生态,但此时,互联网行业的竞争形态已由产品服务竞争、平台生态竞争发展到数据竞争阶段。

时间倒回2003年,在3712与百度搜霸案中,周鸿祎与李彦宏赤膊交锋中文搜索市场。再到2013年开始的3Q、3百与3狗大战,以及优酷系列广告屏蔽案,不同的产品服务跨界进行平台竞争,此时,这些争议可以利用新反法专设的“互联网专条”进行有效规制。然而,互联网江湖风云乍起,AI新贵今日头条未获平台授权批量抓取、同步新浪微博用户数据,硬件巨头华为在Magic手机中利用微信用户聊天记录进行AI服务推荐,凡此种种,创新的产业与稳定的法律反差强烈,“互联网专条”稍显力不从心。

未来是AI云端的数据竞争时代

进入“互联网+”与“人工智能”时代,随着算力算法的突破,人工智能在多次往复突破后,终于迎来新机,我们看到,微软小冰可以写诗,腾讯的DreamWriter在奥运会期间写了800篇新闻报道,今日头条的AI算法实现了千人千面的推荐,AlphaGo、腾讯绝艺等实现了人工智能在单一领域的人类超越,人工智能已经能写诗、作画、创作小说、剪辑电影、制作创意海报。而这一切,都依赖于海量数据的喂养训练,特别是,算力、算法的突破为互联网上流动的海量数据提供了最完美的商业可能。

未来的竞争,将是在云端之上,依赖大数据的AI竞争。

数据竞争问题在全球引发争议

在美国加州的Computer History Museum陈列着世界上第一台采用了人工智能学的移动机器人Shakey,意为摇摇晃晃的机器人,其在1966年到1972年间由Stanford Research Institute研制,体积庞大,但运算速度缓慢,需要数小时的时间来分析环境并规划行动路径。但是,未来或许,机器人总动员中的Wall•E,《西部世界》中的“高科技成人乐园”会在不远的将来出现。借用当今流行的一句话,“我们只知未来将至,却不知未来已来”,以数据为生产资料的新经济形态也被多国认可,并且写进了《G20数字经济发展与合作倡议》。

当前,BAT与华为、京东、今日头条、搜狗等国内企业以及Alphabet、微软、Facebook等全球科技巨头均倾全力押注人工智能技术,甚至百度提出了“All in AI”的战略,

数据作为AI时代的新石油,谁掌控了数据,谁就掌控了竞争格局,其重要性不言而喻。自新世纪以来,在全球范围内,有关数据的争议与案件频发,遍及民事、行政与刑事各个领域,甚至从反不正当竞争领域到延伸到了反垄断领域。

在国内,从2008年开始,大众点评诉爱帮网系列案件最早涉及“数据竞争”的问题,大众点评指责爱帮网大量复制其网站内容,主要是商户介绍与用户点评内容信息。大众点评不惜先后在京沪两地以著作权侵权、不正当竞争等为诉由起诉,其代理人于国富律师在其博客中写到,“爱帮网如此长时间大范围的恶性侵权如果不被判令承担高限赔偿,法律难容”,可见当时争议的激烈程度。

继大众点评案之后,有关“数据竞争”的争议不断出现。诸如,2013年百度诉360违反robots协议案、2015年新浪诉脉脉非法抓取微博用户数据案、2016年大众点评诉百度地图抓取用户点评信息案、2017年运满满诉货车帮盗取用户信息案,以及淘宝屏蔽百度搜索,顺丰与菜鸟有关物流数据接口的争议,新浪与今日头条有关微博内容爬取的争议,华为在Magic手机中利用微信用户聊天记录进行AI服务推荐等,这些争议无一例外,均与平台的海量数据有关。

而在国外,有关数据竞争的争议已经延伸至反垄断领域。2017年6月,数据分析公司hiQ向加州北部法院提起诉讼,主张Linkedin拥有市场支配地位,推动法院于8月份发出临时禁令,要求Linkedin在24小时内容移除引人妨碍hiQ获取其公开数据的技术障碍,目前此案并未审结。在此之前,2016年在评估批准微软公司收以260亿美元收购LinkedIn的交易时,欧盟委员会重点关注领英的数据价值以及对手网站是否可以复制这些数据等问题。

数据保护与数据流动存在先天冲突

数据本身是一个复杂、模糊与开放的概念,本文无意对其进行清晰界定,其实,数据大体与作为知识产权客体的知识产品具有相似特性。物理上的无形性与可传输性,经济学上的非竞争性与非排他性,这些特性使得数据同多数知识产品一样,可以进行法律拟制的财产权保护与无损的数据流动。

事实上,基于商业竞争的考虑,具有数据优势的平台倾向于将“数据”资源作为竞争优势在自有体系与合作伙伴之间流动,有学者认为这可能会产生数据拒绝交易和歧视对待的问题,但于竞争政策的视角去讨论可能更加复杂。不管是因为,基于既有的若干判例,如新浪诉脉脉案与大众点评诉百度案,法院明确承认,数据平台对于平台内的信息具有一定的控制权,即使在现阶段是否赋予其“劳动成果权”还存有一些争议。还是因为,互联网与数据反垄断问题本身就是一个在现阶段很难明确,并需要谨慎对待与慎言的问题。

分析既有的争议,我们发现,数据竞争不仅仅是一个上游之治的问题,除了诸如华为magic读取用户微信聊天信息的争议外,顺丰与菜鸟关于物流数据API接口的争议则发生在同阶平台之间,而新浪微博与脉脉、新浪微博与今日头条的争议则反映了后进入市场者对既有平台海量数据的垂涎。“罗马不是一日建成的”,数据平台方的数据优势建立需要长期的成本投入,其他市场竞争者在未获数据平台方授权的情况下,非法抓取平台数据,直接触及对方核心商业资源,显然不妥。

北京知识产权法院张玲玲法官在新浪诉脉脉案提出了数据流动与使用的三重授权原则,也即平台之间的数据流动(Open API模式)需通过“用户同意+平台同意+用户同意”的模式,较为周延的平衡了用户与平台利益保护以及数据流动的关系。事实上,因为平台数据多涉及用户隐私、数据安全、消费者利益以及平台利益等问题,数据平台方可以通过平台协议、robots协议、API限制以及技术保护措施等手段控制、限制数据合作与数据保护的范围与方式。数据抓取方如未获授权,则必然动辄得咎,除了行政与民事风险,甚至面临刑事风险。

竞争关键在于公共领域的研究

当前数据争议的核心在于,我们是否要为数据赋权?以及,我们需要什么样的“数据权”?在此问题讨论前,我们借用Jessica litman教授在在论述版权法制度的经典表述,私以为,“公共领域才真正是“数据权”法的前提和基础,离开了公共领域,人类根本无法容忍“数据权”制度的存在。”那么,我们讨论数据赋权以及“数据权”范畴设定的关键就变为,“数据权”的公共领域是什么?我们反其道而行之,可以打开通往“数据权”制度的一扇“后窗”,借此窥探“数据权”的边界,以有效平衡用户、数据平台、数据使用方以及其他参与方与社会利益的关系,并基于用户权利、公共利益与竞争政策的协调为数据定章立规。

当前,欧美等国家与地区均在探索建立数据产权与流动规则。基于用户权利考虑,隐私权利、用户遗忘权、数据可携权、数据安全等在国内外立法实践中均有讨论,并已分别在GDPR(General Data Protection Regulation,欧盟通用数据保护条例)、《网络安全法》《民法总则》等国内外立法中有所体现。基于公共利益考虑,我们认为政府公共数据、自然气象数据、医疗数据等关系国计民生福利的数据在产权设定与流动使用应更多考虑社会福利与公民福祉。而基于竞争政策考虑,为了防范市场失灵,除了在反不正当竞争领域的司法探索外,我国应重点研究建立“数据权”的限制与例外制度,当然,我们首先要考虑数据是否可以成为市场力量的来源?不同数据类型、不同产业领域,以及不同竞争主体间的特定行为是否在竞争减损方面有所区别,以及此类竞争减损与效率促进之间如何平衡,以及如何救济。至于在数据经济驱动下的网络效应评估、相关市场界定、市场支配力衡量,甚至于反垄断理论更新等问题,研究工作任重而道远。

此外,近期关注两个问题,其实与“数据权”公共领域问题的研究关系密切。

其一,“数据权”设定的有效路径是什么?我国《民法总则》征求意见稿的最初文本将“数据信息”一体纳入“知识产权”进行保护,后遭多数专家反对,最终全国人大将数据信息与虚拟财产单列进行财产概括性保护,这是我国立法在“数据权”设定方面的谨慎尝试,也反应了数据与知识产权的复杂关系。其实,知识产权在诸多学术著作中被表述为“信息产权”。而从域外经验来看,早在1992年,欧盟委员会通过《数据库指令草案(Commission Proposal for a Council Directive on the Legal)》确立了数据库权(database right)。数据库权衍生于版权体系,以保护实质投资为目的,赋予数据库控制者对抗它人对数据库内容提取的排他权利,并存在着若干平衡性安排,如对合法利用人的非实质性部分的提取或再利用行为进行限制性排除,并规定了若干“法定许可”,虽存争议,但仍可为借鉴之有益经验。私以为,借鉴“数据库权”模式可以解决多数的与“数据权”相关的财产性权益争议。

其二,用户同意与平台协议的关系,也即在未经数据平台方同意,甚至是平台协议反对的情况下,第三方仅获用户授权,能否大批量、自动化抓取用户已在数据平台方发布的数据内容。今年8月9日,今日头条突然开始通过用户授权直接把新浪微博的内容自动搬家到今日头条。面对大量用户与数据溢出的情况,新浪坚决切断了与今日头条的内容接口,并在海淀区法院立案起诉,此案尚未审结。私以为,即使搜索引擎与抓取技术中立,但从技术伦理与商业伦理角度,此类行为的规制应在技术创新与数据平台方激励之间寻求平衡。新浪在微博用户数据的整个生命周期中持续投入,如新浪法律专家王磊所言,“数据的集体涌现性使得“大数据”出现了系统组成前单个要素所不具有的性质”,平台为数据赋能,法律保护应有所倾斜。

此问题的讨论并未结束,才是刚刚开始。

(作者系中国政法大学法学博士、腾讯研究院高级研究员,本文仅代表作者本人观点,责编 闫曼 man.yan@ftchinese.com)

数据垄断真的存在吗?

许可:“数据是新时代石油”的说法是一句成功的口号,但它只说对了一半,数据有价,但它本质上并非石油。

更新于2017年12月26日 07:15 许可 为FT中文网撰稿

我们每一个人都不喜欢垄断,除了垄断者。因为对普罗大众来说,垄断往往意味着更高的价格、更差的商品和不太好的服务。难怪曾为鲍勃•迪伦做过巡演经纪人的乔纳森•塔普林(Jonathan Taplin)在《迅捷行动,打破传统:Facebook、谷歌和亚马逊何以垄断文化、削弱民主》一书中对数字时代的垄断忧心忡忡,并倡议审查亚马逊、Facebook和谷歌对大数据的控制权。无独有偶,被称为“科技巨头克星”的欧盟委员会竞争专员玛格丽特•维斯塔格(Margrethe Vestager)亦表示:“数据可能成为并购中如何影响竞争这一问题中的重要因素。我们正在探索是否介入那些涉及重大价值数据的并购,即使拥有数据的公司并没有高昂的营业额。”这种学术和监管的新观点都着眼在“数据垄断”上,但究竟什么是“数据垄断”,它真的存在吗?

“新时代的石油”:一个误读?

自从《经济学人》将数据类比为21世纪的石油以来,数据的重要性已家喻户晓。

但是,这一比喻令人误解,因为它不但容易让人联想到洛克菲勒的标准石油公司或美孚石油公司,还会误认为现在的数据就像一百年前的石油那样,成为市场上奇货可居、盈利丰厚的商品。然而,真实的情景是:正规的数据交易市场根本没有形成,更不用说在数据市场里呼风唤雨的数据大鳄了。其中的道理简单明了:数据并非真正的石油。

数据并不稀缺。总量有限的石油牢牢把控在欧佩克和俄罗斯等少数产油大国的手中。与之相反,数据无处不在且源源不绝。随着互联网、物联网和智能终端的发展,新的数据每分每秒都在产生,并且,只要网络用户在线,纷繁芜杂的“电子足迹”就会被记录和收集。正如IDC报告所显示的,在过去数年,全球的数据量均以每年58%的速度增长,到2020年,全球数据总量将超过40ZB(相当于4万亿GB),达到2011年数据总量的22倍。不仅于此,由于数据可以零边际成本地生产和分配,企业从自己或第三方等不同来源那里获取数据并没有实质的障碍。

数据并不排他。石油只能被特定的企业占有和消费,而数据不同,它被一家企业收集、使用并不以排斥他人为代价。作为网络用户,我们能够接受不同企业提供的不同网络服务,甚至是同一类服务,比如百度知道和知乎。这一被称为“多重归属”的网络经济特性,将我们的数据分散到各个网络平台上,以至于没有企业可以独占所有数据。非排他性还意味着,即便一家企业拥有了特定数据,它也不能阻止他人通过别的途径获得同一数据。正因如此,在新浪微博诉脉脉反不正当纠纷中,脉脉便抗辩说相关数据是其利用“协同过滤算法”而得,并非从微博处获取,以证明自己数据的合法性。

数据价值并不永久。石油固然不是“恒久远和永留传”的钻石,但其并无有效期限,价值难以消减乃不争事实。与石油要储藏够久才有价值迥异,数据是典型的时效品,老数据不如新数据值钱,而且随着时间推移,前者越来越没有价值。恰如王坚先生的《在线》一书所洞见的,大数据与其说是“大”的数据,毋宁是实时在线的“活”的数据。所以,因数据累积而形成的优势会迅速消逝,因为数据的寿命有限,一旦它们“死去”,便一文不值。

数据没有法律上的所有者。数百年来,围绕石油已经建立起一套权属清晰、边界清晰的规则体系,而数据产权目前还是一笔糊涂账。最近,围绕欧盟委员会《关于构建欧洲数据经济征求意见书》,欧洲学界就数据财产权是否设立、以及如何设立论战不休。美国则基于实用主义的考虑,立法仅仅规范数据的收集、利用和流转,根本不谈数据归属问题。我国在今年生效的《民法总则》中首次将数据纳入其中,但由于缺乏细则,只有宣示“数据受法律保护”的指向意义。更重要的是,数据与个人信息、隐私等有关人格的权利夹杂不清,进一步影响了数据产权的确立。“清楚界定的产权是市场交易的前提”(科斯),数据的“无法”状态自然让数据市场的发展困难重重。

总之,“数据是新时代石油”的说法是一句成功的口号,但它只说对了一半,数据有价,但它本质上并非石油。

数据能决定企业竞争力吗?

如果说数据不是企业的产出品(output),那么我们换一个视角,数据能否作为投入品(input),从而构成左右企业竞争力的源泉?当前,“构建以数据为关键要素的数字经济”已经在世界范围内获得广泛共识,可我们如何理解数据在企业竞争中的作用呢?

首先必须承认数据是企业发展的重要因素。数字经济的技术革新彻底改变了数据运用的传统方式。现在,企业能够通过数据的学习效应(learning effect),来改进产品和服务。例如,Youtube可以收集每个用户的点击信息,来修正和完善算法,从而吸引更多用户。企业还能基于大数据的“用户画像”,提供订制化的产品,并根据其消费者能力和价格敏感度设定个性化的价格。此外,企业还能对数据进行二次利用,开发出新的商机。最近,电子商务网站美团开辟“美团打车”业务,便是一个鲜明的例子。

然而,数据的作用也不可高估。纵观历史,拥有海量数据而失败的企业比比皆是。这首先是因为,数据的优势很容易被削弱。一方面,数据是可分的和高度差异化的。基于长尾理论的观察,不同的消费者在网络购物、在线约会、社交网络、在线旅游等场景下,往往导向更精确、更符合其需求的网络服务提供者。所以,成功的企业必须挖掘属于自己的利基市场,而不能盲目跟随领先者。差异化的竞争使得自己富有价值的数据,对其他企业可能用处寥寥。另一方面,数据本身可被替代。一家将传感器嵌入公路以收集交通拥堵数据的企业,很快就会发现,随着自动视频分析、手机导航等技术运用,其数据已沦为第二选择。

其次,数据不能独立带来优势。根据胡凌先生的分析,网络平台的竞争在“资源、数据、算法、基础服务”等四个维度展开。具体来说,经由信息技术降低交易成本而带来生产性资源的不断增长,伴随着前者的活动产生大量数据,然后企业使用算法对数据进行动态分析预测,最终据此改进基础服务。显然,数据只是一个中间环节而已,它不是也不可能是决定性的。这也说明了,为什么数据巨头会失败:从时代华纳收购美国在线,到微软收购网络广告公司aQuantive,这些数据驱动型并购都降低了、而非增强了它们的竞争优势。相反,在那些看似需要大量数据才能生存的数字产业里,初创者也能脱颖而出。当Tinder在2012年9月登陆在线约会战场时,它没有任何用户数据,但凭借着简单的用户界面和对消费者需求的精准关注,Tinder很快成为市场的领导者,迄今为止,Tinder 已经见证了200 亿成功配对,成为全球最受欢迎的交友应用。

最后,数据带来的力量十分脆弱。数字经济是高度创新的行业,更有甚者,在“颠覆性创新”(Disruptive Innovation)与“维持性创新”(Sustaining Innovation)二分架构下,其创新更偏向前者而不是后者。这意味着在不断变化和迅速迭代的竞争环境中,数据巨头的竞争优势将因完全意料不到的竞争对手和商业模式化为乌有,甚至会逆转为劣势。更惨烈的是,这种变化的彻底性与网络倾覆效应(Tipping Effects)相结合,往往让基于历史数据的决策错得离谱。MySpace与Facebook擦肩而过,AltaVista和Lycos输给了谷歌,诺基亚给iPhone让位,Google+遭遇滑铁卢,雅虎更名“Altaba”,这样的事件不胜枚举。

在最近的一篇文章中,经济学家Anja Lambrecht和Catherine E. Tucker细致检讨了数据是企业核心竞争力的观点,他们认为:“在变动不居的数字经济中,几乎没有任何证据表明,仅仅拥有数据就能充分排斥更优的产品或服务的供给。要想建立可持续的竞争优势,数字战略的重点应当放在如何使用数字技术,以前所未有的方式给用户带来价值上。”就此而言,“数据是新时代石油”还有一层隐含的意义,那就是占有数据远没有开发数据有价值,正如石油大国往往不是经济强国,而这未尝不是“资源诅咒”的另类运用。

正是出于以上种种理由,尽管美国和欧洲的监管者都对数据垄断表示了关注,但在Google收购DoubleClick、TomTom收购TeleAtlas、Facebook收购WhatsApp、Nielsen收购Arbitron等一系列并购案中,他们并没有针对数据采取激进的反垄断审查措施,而把是否破坏行业竞争和侵害消费者权益作为监管目标。当然,不用讳言,数据巨头对数据的收集和利用将给普罗大众的个人信息权利和隐私权带来了挑战,可这已经是反垄断法之外的故事了。

(本文仅代表作者本人观点,作者系法学博士、中国人民大学金融科技与互联网安全研究中心副主任,责编:闫曼 man.yan@ftchinese.com

关于“数据垄断”的几点思考

杨建辉:数据产业刚起步,各种商业模式还在探索之中,暴露的问题还不彻底,解决问题的新方法、新手段也还在酝酿之中。

更新于2017年6月20日 05:56 阿里研究院资深专家 杨建辉 为FT中文网撰稿

自从大数据概念出来之后,与数据相关的问题总能引起大家的兴趣。

去年,马云在杭州的云栖大会上提出“五新”,其中之一是“新能源”。他认为,数据将像以前的水、电一样,成为基本生产要素,成为驱动未来经济发展的新动力。这一观点,使大家对数据的作用有了新认知。

2017年6月1日,顺丰与菜鸟商业合作问题引起全民热议。在舆论发展过程中,讨论越来越集中于数据方面,数据垄断问题被提了出来。数据和垄断两个不同的问题,被紧密地捏在了一起。

几乎同时,“数据寡头”的说法也出现了。如果说数据垄断仅侧重于具体行为的话,那么数据寡头,则是着眼于对企业整体性质的判断。

数据垄断、数据寡头等概念,与反垄断监管相关。反垄断监管会深刻影响企业战略、行业发展。中国的数字经济正迅速发展,并逐渐成为经济发展的新动能;中国的数据产业也刚起步不久,正在加速发展。因此,对数据垄断、数据寡头等概念,我们必须进行深入剖析,辨明其内涵,判断其科学性。只有这样,才能排除一些似是而非的认识对新经济发展造成不必要伤害,阻碍新兴产业的发展。

数据是数字时代的血液

一般认为,数据是以电磁等介质为载体的信息。数据的内容是信息,而其物理表现形式则是电磁等介质。

在人类历史上,迄今为止发生了三次信息载体革命,第一次是语言,第二次是文字,第三次则是数据。语言使人类文明得以建立,文字使文明得以保存和传播,而数据将使文明演化速度大大加快。

信息以数据形式呈现后,借助功能不断增强的网络技术、存储技术、计算技术、先进算法等工具,可以实现海量收集、存储、加工、传输,从而不但使物理世界可以在虚拟世界完整、全面、清晰地“镜像化”,还可以通过算法对全数据进行分析,深刻洞见物理世界不同部分的相互关系。因此,数据技术使人类在信息交流、使用等方面不断突破时间、空间、规模、范围等的限制,并获得对客观世界的新认知。

数据及数据技术应用于经济领域,极大改善信息不对称、不完全状况,大幅度降低交易成本,使商业活动发生革命性改变。商业组织、商业模式、生产方式、交易标的、交易手段、交易地理范围等,都发生翻天覆地的变化,数字经济由此蓬勃发展起来。

数字经济的发展将带来数据量的剧增。根据IDC《数字宇宙报告》,到2020 年人类拥有的数据量以ZB(1ZB =1,048,576PB,1PB=1024TB)计量。预计,随着IoT的应用普及和在线化,人类将迎来“数据核爆”。

数据的重要性不断凸显,与数据有关的法律问题也越来越受到重视,反垄断就是其中之一。

“数据垄断”是一个模糊概念

“数据垄断”是伴随菜鸟顺丰事件热起来的一个名词。但是,何为数据垄断,应作认真分析。

根据维基百科,数据垄断其实最初是针对政府的,与数据民主相对应。进入21世纪以来,美国、英国、澳大利亚、新西兰等国陆续掀起一场数据民主化运动,要求政府机构及相关部门将有关公共数据上传至其门户网站。

最近因菜鸟顺丰事件而被热炒的数据垄断,对象不是政府,而是企业。但是在这场争论中,不同的人所指称的数据垄断,具有不同的含义。

有人称“数据垄断”,是从数据占有角度来说的,其实是指“垄断数据”。垄断是一个内涵极其丰富的词,其本义是指独占。这种说法使用了垄断一词的“独占”含义,即“独占数据”。但独占数据本身并不违反《反垄断法》,即使独占的是海量数据。独占数据,只有因此在某一相关商品市场形成市场支配地位,并滥用这种市场支配地位,才会违反《反垄断法》。

有人称“数据垄断”,是从数据流动角度来说的,其实是指“不共享数据”。数据共享是一个重要问题,涉及多方利益调整。不共享数据在很多情况下可能有正当理由,是符合相关法律规定的,不违反《反垄断法》。不共享数据,只有在涉及垄断协议或滥用市场支配地位时,才会违反《反垄断法》。

有人称“数据垄断”,是从个人信息保护角度来说的,其实是指“控制个人数据”。企业收集或共享个人信息,如果不履行告知义务或得到个人授权,对个人而言,企业就像黑箱,个人信息被控制、被“垄断”。但这种情况基本和垄断没有太大关系。

有人称“数据垄断”,是从数据收益角度来说的,其实是指“独占数据收益”。数据收益如何分配,是一个在目前争议很大的问题,但也基本和垄断没有太大关系。

有人称“数据垄断”,是从向相关部门报送数据角度来说的,其实是指“未充分向相关部门提供数据”。企业与政府相关部门的数据配合,是一个涉及面很广的问题,但与垄断基本没有关系。

上述说法,涵盖了与数据有关的很多重要问题,但都不是真正的垄断问题,却被冠之以“垄断”之名。这些说法,极易给人以误导,使问题复杂化,也不利于找到解决问题的正确方法。因此,应给予辨析、正误。

当然,数据,尤其是大数据也会产生垄断问题。因数据而产生的垄断问题,应该至少包括以下几类:一是数据可能造成进入壁垒或扩张壁垒,二是拥有大数据形成市场支配地位并滥用,三是因数据产品而形成市场支配地位并滥用,四是涉及数据方面的垄断协议,五是数据资产的并购。

这些都是新型反垄断问题,与传统工业经济的反垄断问题具有很大的区别,值得深入研究。比如,在审查数据资产并购时,如何界定数据资产的相关商品市场、如何评估并购可能产生的排除限制竞争影响、如何设计救济措施等,都具有新的特点。就拿界定相关商品市场来说,是按数据本身的属性来界定、还是按其用途或其产生的数据产品来界定,值得认真讨论。

而这些问题和特点,并不是“数据垄断”一词所能概括的。

“数据寡头”的是与非

从反垄断法的角度来说,寡头是指寡占市场的参与者。如果在某一相关商品市场中,只有很少数的几家厂商,那么这些厂商可以称之谓寡头。寡头一般具有市场支配地位,但寡头必须与特定的相关商品市场相联系,比如电视机行业的寡头、碳酸饮料行业的寡头等,很少有企业能成为所有行业的寡头。

很明显,“数据寡头”是把传统工业经济的“寡头”概念借用过来而形成的新词。简单机械的借用,也许会受到挑战。首先,这一提法未区分细分市场,给人以在所有领域都拥有海量数据的感觉,夸大了企业在数据方面拥有的市场力量。其次,如何分析数据领域的市场结构、如何判断数据领域的市场支配地位,目前还没有成熟的标准。在标准不明确的情况下,判断企业是否是数据寡头,容易引起争议。

其实,数据这一生产要素与其他生产要素具有很大区别,这使得因数据而产生的市场力量与传统市场力量也具有很大区别。比如,数据要发挥最大作用,必须越多越好。因此,企业掌握的数据量越多,越有利于发挥数据的作用,也越有利于最大化消费者福利和社会福利。同样,企业如果横跨多个领域,并将这些领域的数据打通,使数据在多个领域共享,那么数据的效用也将更大化发挥。这也是大型互联网公司能够不断进行生态化扩张的原因。从这个角度来说,“数据寡头”对消费者和社会来说,在效率上是有利的。

再比如,数据无时无刻都在产生,且呈指数级增长。数据一直呈爆炸性增长的事实,意味着这一领域具有很大的动态性,企业市场地位的变化相比于传统产业可能要快得多。市场的快速变化,将对所有在位企业,包括大型企业产生巨大的竞争压力,这种压力将迫使它们不敢轻易滥用自己的市场力量。

这些区别,增加了评价所谓“数据寡头”的复杂性。

数据产业的规范需要探索

与数据产业发展相伴而生的,是各种冲突和矛盾,如数据权属问题、个人信息保护问题、企业间数据流动问题、数据利益分配问题、企业与政府数据共享问题等等。这些问题,不能以“数据垄断”之名进行简单地概括,否则,既混淆了问题的性质,也夸大了问题的严重性。

要促进数据产业长期健康发展,必须抛开简单粗暴的方法,而应代之以对各种冲突和矛盾进行细致分析。比如,企业向相关部门报送数据问题,应平衡政府监管目标、企业报送负担、商业秘密保护、个人隐私保护等各方关切,在此基础上,找到妥善处理办法,而不应简单地以打破企业“数据垄断”为由,要求企业提供超出必要范围的数据。

从长远来看,数据产业还刚刚起步,各种商业模式还在探索和发展之中,暴露的问题还不彻底,解决问题的新方法、新手段也还在酝酿之中。在这种情况之下,应避免把结论下得太早,处理问题的方式也应具有更大的弹性和更大的开放空间。

(本文仅为作者个人观点,不代表所在机构。责编:闫曼 man.yan@ftchinese.com

人工智能的算法黑箱与数据正义

许可:人工智能的算法依赖于大数据,而大数据并非中立。它们从真实社会中抽取,必然带有社会固有的不平等、排斥性和歧视的痕迹。


更新于2018年3月7日 06:45 许可 为FT中文网撰稿

一个月前,《终极算法》作者、人工智能著名学者、华盛顿大学教授 Pedro Domingos 在社交网络中写道:“自 5 月 25 日起,欧盟将会要求所有算法解释其输出原理,这意味着深度学习成为非法的方式。”一石激起千层浪。人们不禁要问:欧盟为何出台这个法规?以深度学习为核心的人工智能真的会遭遇重大挫折?中国应当借鉴并仿效吗?

利用人工智能的自动化决定

尽管真正拥有知觉和自我意识的“强人工智能”仍属幻想,但专注于特定功能的“弱人工智能”早如雨后春笋般涌现。在万物互联的背景下,以云计算为用,以个人数据为体,以机器学习为魂的智能应用已经“润物细无声”。从今日头条的个性化推送到蚂蚁金服的芝麻信用评分,从京东的“奶爸当家指数”到某旅游网站用大数据“杀熟”,个人信息自动化分析深嵌入到我们日常生活之中。在法律上,我们称之为“基于个人信息的自动化决定”。简单来说,就是通过自动化的数据处理,评估、分析及预测个人的工作表现、经济状况、位置、健康状况、个人偏好、可信赖度或者行为表现,进而利用这种“数据画像”(profiling),在不同的业务场景中做出有关数据主体的各项决定。

人工智能的自动化决定一方面可以给我们带来便利,比如智能投顾或智能医疗,但另一方面,它绝非完美无缺,它不仅可能出错,甚至还可能存在“恶意”。美国马萨诸塞州的居民John Gass便深受其害。联邦调查局的反恐识别系统将他误认为是另一位司机,并吊销了他的驾驶执照,于是,他不得不费时费力,让当局相信他不是那名司机。其实,John Cass已经非常幸运。在美国,每周超过1000人被机场使用的算法错误地标记为恐怖分子。一名美国航空公司的飞行员在一年中被拘留了80次,因为他的名字与爱尔兰共和军领导人的名字相似。这还不算是最糟糕的。人工智能的算法依赖于大数据,而大数据并非中立。它们从真实社会中抽取,必然带有社会固有的不平等、排斥性和歧视的痕迹。例如,为了在Twitter上与千禧一代进行对话,微软开发了Tay聊天机器人,它旨在学习如何通过复制网民的语音来模仿他人。可仅仅在试用24小时后,它就被引入歧途,成为支持种族灭绝的反女权主义纳粹分子,以至于发出了“希特勒无罪”的消息。更有甚者,美国法院用以评估犯罪风险的算法COMPAS,亦被证明对黑人造成了系统性歧视。

无论是程序错误,还是算法歧视,在人工智能的前沿领域——深度学习中,都变得难以识别。华盛顿特区的Sarah Wysocki是一位被普遍认可的老师,但当2009年政府用一个自动化决定程序来评价教师表现时,她和其他205人因得分不佳被解雇。据称,该决定以少数学生的成绩为依据,可学校始终无法解释为何优秀教师会落得如此下场。华盛顿学校的难题有着深层次原因。与传统机器学习不同,深度学习并不遵循数据输入、特征提取、特征选择、逻辑推理、预测的过程,而是由计算机直接从事物原始特征出发,自动学习和生成高级的认知结果。在人工智能输入的数据和其输出的答案之间,存在着我们无法洞悉的“隐层”,它被称为“黑箱”(black box)。这里的“黑箱”并不只意味着不能观察,还意味着即使计算机试图向我们解释,我们也无法理解。哥伦比亚大学的机器人学家 Hod Lipson把这一困境形象地描述为“这就像是向一条狗解释莎士比亚是谁。”

《统一数据保护条例》的应对

正是因为人工智能的自动化决定对个人权利的重大影响,

将于2018年5月25日生效的欧盟《统一数据保护条例》(GDRR)在1995年《数据保护指令》(Directive 95/46/EC)的基础上,进一步强化了对自然人数据的保护。

首先,尊重个人的选择权。当自动化决定将对个人产生法律上的后果或类似效果时,除非当事人明确同意,或者对于当事人间合同的达成和履行来说必不可少,否则,个人均有权不受相关决定的限制。

其次,将个人敏感数据排除在人工智能的自动化决定之外。根据《统一数据保护条例》第9(1)条,“敏感数据”即有关种族、政治倾向、宗教信仰、健康、性生活、性取向的数据,或者可唯一性识别自然人的基因数据、生物数据。由于这些数据一旦遭到泄露、修改或不当利用,就会对个人造成不良影响,因此,欧盟一律禁止自动化处理,即使当事人同意亦是如是,只有在明确的法律规定时才存在例外。

再次,增加数据使用者在个人数据收集时的透明度。根据《统一数据保护条例》第13条(f)和第14条(g),如果个人数据将用于自动化决定,那么至少应当向个人提供相关决定的重要性、对个人预期的影响以及有关运算逻辑的“有用信息”。比如,在银行收集个人数据时,应当告知其可能使用人工智能对贷款人资质进行审核,而审核的最坏结果(如不批贷)也应一并披露。此外,由于我们都不是技术专家,因此,这里的“有用信息”不但应浅显易懂,为每个人理解,而且要有助于每个人主张自己在《统一数据保护条例》或其他法律下的权利。还是以贷款审核为例,当我们觉得被不公正对待时,银行提供的信息就应当成为法院审理的重要依据。

最后,如果个人对自动化决定不满,则有权主张人工介入,以表达自己的观点并提出质疑。这一规定和上述透明度要求相结合,产生了针对人工智能的所谓“解释权”,而这正是Pedro Domingos的担忧所在。考虑到算法黑箱,深度学习的合法化似乎是个无解的问题。但事实上,这可能是个误解。一方面,“有用信息”的提供是在收集数据之时,而非做出自动化决定之后,其意味着个人仅仅概括地了解系统的一般原则即可,并不需要彻底把握某项具体决定的逻辑。另一方面,法律所看重的是“可理解”(explainable),而不是“可阐释(interpretable)。换言之,它不关注人工智能内部究竟如何运作,而只关心输入数据和输出结果的关联关系。在加州大学伯克利分校发布的《人工智能的系统挑战:一个伯克利的观点》(A Berkeley View of Systems Challenges for AI)中,这种关联性被称“反事实问题”测试。在个人被拒绝贷款的例子中,人工智能系统必须能否回答如果诸如“我不是女性,是不是就能批贷?”“如果我不是小企业主,是不是就能批贷”这样的问题。因而数据使用者有义务建构出一套具有交互诊断分析能力的系统,通过检视输入数据和重现执行过程,来化解人们的质疑。这才是“人工介入”的真实含义。

将数据正义引入中国

数据是数字经济的关键生产要素,人工智能是数字经济的关键产业支柱。如何在发掘数据的经济价值、发展人工智能的同时,保障个人的权利和自由,依然是数字社会的未解难题。当前,我国尚无《个人信息保护法》,在不久前出台的《个人信息安全规范》中,第7.10条“约束信息系统自动决策”也只是赋予了个人提出申请的程序性权利,并不涉及实质约束。无独有偶,中国电子技术标准化研究院发布的《人工智能标准化白皮书》虽然已关注到人工智能的伦理和隐私问题,但着墨不多,因过于原则而难以实施。就此而言,《统一数据保护条例》可成为我国可资借鉴的他山之石。它不仅仅提供了一系列具象的法律规则,更重要的是它在“数据效率”之外,传递出“数据正义”(data justice)的理念。

尽管作为一个发展中的理念,数据正义的含义远未定型,但“反数据歧视”和“数据透明”必然是题中之意。在数字化生存的今天,不管是“社会人”还是“经济人”,都首先是“数字人”。现实空间的我们被数据所记载、所表达、所模拟、所处理、所预测,现实空间的歧视也是如此。从求职歧视到消费歧视和司法歧视,数据歧视前所未有地制度化和系统化。基于此,法律首先要做的就是规定更加小心和负责地收集、使用、共享可能导致歧视的任何敏感数据。可这显然不够。从大数据的相关性原理出发,只是将敏感数据简单排除并不能保证它们不被考虑。例如,若特定区域的人有着大量的低收入群体或少数族裔,那么区域的地理数据就可以代替收入或种族数据,用作歧视工具。所以,要识别和挑战数据应用中的歧视和偏见,“数据透明”就不可或缺。换言之,它要求在数据生产和处理日趋复杂的形势下,增强个人的知情权,从而修复信息的对称性。

关于这一点,凯文•凯利所讲的老婆婆故事是一个绝佳的例子。在故事里,你住在一个小城镇,你的邻居老婆婆知道你的一切动向和行踪,但你可能不会觉得被冒犯,因为你不在家的时候,老婆婆会帮你看家;更重要的是,你了解关于老婆婆的一切。从信息窥视的角度,数字时代的政府和企业就像邻居老婆婆,不过,他们只是部分地做到了第一点,就第二点而言,我们却还有很长的路要走。

(本文仅代表作者本人观点,作者系法学博士、中国人民大学金融科技与互联网安全研究中心副主任,责编:闫曼 man.yan@ftchinese.com

公司怎么做好一个大数据项目?

众所周知,伴随着云时代的到来,大数据已经成了现在科技界最热门的话题。最近,公众号“依米研习社”发了篇文章,以一个福特公司的大数据项目为例,讨论了企业该如何做一款成功的大数据项目。讲得有理有据,我来说给您听听。

这篇文章指出,要想做好大数据项目,需要遵从以下几个原则。

第一,这个项目的目标要特别清晰。公司从上到下、各个部门,都得明白用这个大数据要做什么。

举例来说,福特公司的第一步是确定项目的目标,也就是让销售部门能用大数据来提升福特汽车的销售业绩。一般汽车销售商的做法是投放广告,这样随随便便就得花好几百万美金,而且还很难弄清楚,消费者买汽车到底是不是因为受了广告的影响。但大数据技术就不一样了。它可以通过对所有相关数据进行收集和分析,来确定哪些因素会影响个人购买汽车的意愿。这个目标不仅福特的营销部门清楚,财务主管部门和技术研发部门也都很清楚,这样才能上下一心地把这个项目做好。

第二,项目要用快速迭代试错的方法来稳步推进。也就是说,做项目规划的时候,要争取每星期都能推出一个功能,然后立刻对其进行测试。要是测试成功,下星期就再推出下一个功能;要是测试不成功,就立刻对其进行改正。

举例来说,福特公司的第二步是找一个大约200人的大数据分析团队,让他们全面收集与汽车销售相关的各种数据,比如第三方合同数据、区域经济数据、就业数据等等。那如何从这些海量的数据里,筛选出那些能影响汽车购买意愿的核心数据呢?他们就用快速迭代的方法,对这些数据分门别类地进行测试,看其是否能够影响到汽车的销售,从而把最核心的数据筛选了出来。

第三,所选技术要符合大数据项目的功能要求。一般做一个大数据项目都需要用一些特殊的数据分析技术,但重要的不是专门选一些特别高大上的技术,而是让你选的技术符合你设计的业务功能。

举例来说,福特公司的第三步是对筛选出来的数据进行建模分析,从而为销售和决策部门提供精准可靠的效果分析。特别地,对于所选方法可能获得什么样的营销效果,他们做了大概几十种的可能性分析。正是这样深入全面的分析,保证了他们可以从数据中挖掘出最有价值的结果。

第四,项目团队要拥有各方面的专业知识技能。公司做大数据项目就像做任何一款创新产品,都需要形成一个拥有各种专业知识的团队,上面有领导的支持,中间有大家的共识,下面的一线执行人员也都清楚自己要干什么。

举例来说,福特公司的第四步是根据这些建模分析的结果,让营销部门和运营部门来策划和实施有针对性的促销计划。比如说,在某些汽车需求特别旺盛的地方,他们会根据一些个体的特点来量身订做专门的促销方案。与传统的广告投放策略相比,这些专门的促销方案非常精准,只需要花五、六十万美金,就能知道谁对福特汽车感兴趣。相应的广告就投放到潜在客户的电子邮箱或他们所在地区的报纸上了。

第五,做出来的项目成果要达到期望的结果。一般来说,能达到80%的预期,那就已经很好了;能达到50%的预期,那也很不错了。

举例来说,福特公司的最后一步,是衡量大数据营销的效果。跟传统的广告投放相比,福特公司只花了十分之一的钱,就大幅度地提高了福特汽车的销售业绩。通过做这个项目,福特公司不光在汽车销售方面获得了成功,还在汽车的整车质量、保险费用、运输状况和驾驶模式方面积累了非常丰富的数据。他们希望用这些数据来帮助汽车驾驶员降低保险成本,从而促进消费者对福特品牌的认可,扩大市场占有率。

马云曾经在一次演讲中说过,未来将不是信息技术的时代,而是数据技术的时代。通过福特公司的例子,我们看到,大数据技术确实能显著提升一个公司的运营效率。所以做好大数据项目,将对一个企业的发展大有裨益。

本文源自:公众号“依米研习社”(企业如何做一个成功的大数据项目)

欢迎关注我的其它发布渠道